查看原文
其他

绿洲对谈袁粒教授:下一个变革前,保留火种

参赞生命力 緑洲资本 Vitalbridge 2023-09-12
从语言到视觉,有多远的路要走,下一个大模型的变革会在何方?
今天我们分享与北大信息工程学院助理教授,博士生导师袁粒教授的对谈,Enjoy

绿洲:您主攻的领域和研究的重点方向是哪些?

袁教授:我的研究主要集中在计算机视觉以及多模态机器学习。我在博士时期原来是纯计算机视觉为主的研究,当时就发现整个研究领域出现了大的趋势变化,让我感悟到模型从小到大,除了数据量变大之外,一个更显著的特点是从单模态往跨模态向更广的多模态上走,另一个特点是从有监督学习到无监督学习的范式过渡。

于是在读博的中后期,我的研究重点之一转向了如何找一个统一模型,这个模型需要在视觉、在 NLP (自然语言处理)、在不同的数据模态上都能表现出良好的性能。在做了大量的实验和研究之后,发现 CV 里的模型并不适合 NLP,NLP 里的 ‍Transformer 反而也许可以做视觉任务。于是我的研究重点转向如何将 Transformer 用在视觉任务上。

Transformer 可以用在视觉领域是一个标志性的事件,既然它可以同时应用在 CV(计算机视觉)和 NLP 两个领域,那它对于多模态任务就是一个非常好的基础模型。我现在的研究关注设计基础框架用做多模态任务,从两模态到多模态。中国科学院自动化研究所研发的三模态预训练模型“紫东太初”就是一个三模态模型,他们开始尝试三模态,目前最高也就是三模态。当前主流的模型以视觉和文本两模态为主,比如文生图,图文互生,图文互检。未来的大趋势,包括我当下的研究也是构建一个数据集,从两模态做到多模态。我们希望不光是数据量变大,而是模态数增多之后,不同模态隐含的信息也不一样,模型本身是否能从更多的模态上学习,更加泛化。

绿洲:在大模型的发展过程中,视觉图像和 NLP 是可以融合的么?

袁教授:我读博期间这已经是大趋势:从不同模型走向同一个模型。现在两者已经走向融合了。众所周知 LLM(大语言模型)已经做得很好,视觉大模型也开始涌现。当然 GPT-4 虽然是一个多模态模型,但是它对外开放的接口是单模态的,只有语言,没有视觉。未来如果出现真正可以用起来的多模态大模型,它势必会带来更丰富的想象力。

绿洲:现在还没有做出多模态大模型的原因在哪里呢?

袁教授:多模态的任务比单模态的任务更难,数据也稀缺。做单模态任务需要搜集的数据相对来说肯定要简单一些。搜集多模态的数据,你要考虑这些模态的数据是否应该匹配,涉及到更复杂的算法设计,当然还有成本的问题。目前对于文本和视觉的数据比较多,但是对于其他单模态的数据量还是远远不够的。

绿洲:您开发 ChatExcel 的长远思考是什么?

袁教授:ChatExcel 是双模态的输入,一个模态是文本,另外一个模态是表格。大家可能认为表格不是一个模态,其实表格更像 Graph(图表),是一种特殊的模态。我们将两个模态送进模型,让模型去生成一个新的图表。ChatExcel 只是一个开端,但是我们的重点不在办公软件,因为办公领域的竞争已经相当成熟,缺乏想象空间了,我们认为更大的空间是在更多的场景和任务下,比如以视觉为中心的多模态场景。我们的方向和文生图不同,文生图是做生成,我们做的是用语言和语音对视觉模态做精细的编辑和修改,想象空间更广阔。
绿洲:之前 Meta 推出了 SAM (Segement Anything),很多声音说 CV 不存在了,您对此怎么看?
袁教授:SAM 肯定是一个突破性的工作,但我并没有觉得 CV 就不存在了。对于 SAM 而言,如果你的图分辨率不高,或者说图片中的物体很小,它就做不到“万物皆可分”。计算机视觉本身就是一个很大的课题,分割只是其中一个任务。SAM 算是把分割做到了一定程度的极致,效果的确很惊人,在分割领域是公认的 SOTA (State-Of-The-Art) 模型。虽然用比较难的场景,比如密集场景去测试,会发现它还是无能为力,但重要的是我们必须承认这个模型的贡献,SAM 可以成为视觉领域的一个基础模型。
SAM 在应用层面肯定可以衍生出很多应用,其次它可以作为基础模型。比如说为其他任务提供特征提取,或者把分割本身作为一个基础任务,为更高级别的任务提供特征提取器。比如有个任务,必须分割到每个人、每个物体在哪儿,然后才能继续做下游任务,那么你可以用 SAM 去做提取,然后再应用在下游任务上,如姿态识别,目标关系识别等,这就是基础模型的意义,而并不是说视觉问题它都解决了。
但视觉除了二维视觉之外,还有三维视觉。视觉领域的问题不仅仅在分割,如果视觉再往多模态发展,它的问题会更多。
绿洲:视觉模型发展到什么程度算是突破呢?
袁教授:从二维到三维能算是一个突破。二维还有很多问题没有解决完,利用 SAM,比如图像描述上,通过分割,你可以优化文本描述。但是描述物体间的关系,并不只是通过分割解决的。分类、检测、分割是视觉的三大基础任务,如果某个模型在基础任务上做得很好,那么它就可以为更多的任务做基础模型。比如 SAM 本身不能做图像描述和姿态估计,但是它能找到人,并指出人的位置,完成最基础的任务。
为什么 NLP 大模型先出现,为什么视觉大模型没有 NLP 大模型那么轰动,效益那么大?因为视觉任务本身的数据维度更高,任务更难。这也就是为何 GPT 系列是更基于文本,在图像上的能力有限。至少在 GPT-3.5 前,都是单模态纯语言模型。GTP-4 的演示虽然展现了视觉输入,比如可以做图像描述, 可以做 VQA (Visual Question Answering 视觉问答),但具体内容并没有对公众开放,所以它的能力还是未知的。
绿洲:计算机视觉在国内主要的应用场景在哪里?哪个发展方向会更快一些?
袁教授:互联网相关的发展会更快,因为互联网产品触角更长,范围更广。自动驾驶应该是在应用上最有价值的一个领域。特斯拉一直在推纯视觉的解决方案,为什么要推纯视觉?因为最便宜,摄像头作为一个硬件,成本是最低的。如果视觉领域真正出现一个大模型,很多领域就会更蓬勃地发展,甚至被颠覆。比如现在的自动驾驶行业,首先硬件成本在降低,其次如果视觉任务可以做到极致,具备了智能视觉,那么自动驾驶就能上另一个台阶。特斯拉的 FSD(Full Self-Drive 完全自动驾驶),是要额外花大几万才能加到车上用的,而且在美国会比中国更好用,因为两国的交通场景、建筑风格还有自然风貌的差异都很大。特斯拉用的是美国的数据在训练,必然更适应美国的场景,表现力也更好,到了中国就是另一个域。“域适应”也是视觉领域一直没有很好解决的问题,也就是跨域的识别能力。如果真的出现一个与 ChatGPT 相当水平的视觉大模型,那整个市场空间的想象力要比目前 NLP 的空间更大,也许能帮助过渡到真正的完全自动驾驶。
绿洲:计算机视觉的发展而言,中国在全球范围内处于什么水平?
袁教授:人工智能大领域的现状现在几乎就只有在中美在竞争。NLP 的发展水平很接近;视觉方面,SAM 同期国内智源研究院就发布了 SegGPT,两者的工作十分类似,只是 SegGPT 晚发了几天,可以看出中国在大模型上面的发展速度咬得很紧。目前我们更多不是卡在算法上,而是因为高端 GPU 被禁售,硬件和算力被卡的问题。

绿洲:中美之间计算机视觉的应用场景会有比较大的区别么?

袁教授:我觉得应该比较类似,尤其是自动驾驶,全世界,至少中美都瞄准了这个领域。其他领域各国大同小异,本质上我认为不会有太大的差别。

绿洲:在视觉领域,有什么“简单方法”可以去判断一个新论文/方法是否靠谱?

袁教授:最简单的就是看这个工作课题组是否靠谱,以往的开源做得好不好,是否曾经有过学术不端的行为。可以去 Papers With Code 这个平台上看下复现的论文代码多不多,越多一般越靠谱;还有 GitHub 上的 star 数量和 fork 数量越多相对越靠谱,但这些都只是很量化的标准,更多的需要专业领域人来判断。

绿洲:最近市场上关于大模型走到天花板的问题,您怎么看?

袁教授:这只是一个小回落,而且回落得不厉害,这只是新事物发展的必然阶段,到达高潮之后会有一个轻微的回落。这波 ChatGPT 是给 AI 续命,对从业者或者研究领域的人而言,都是一针强心剂。这个圈子里,大家已经很久没有那么激动了,对整个行业来说是件好事。只是研究者需要思考整个研究的范式是否要做改变,这是我们要深入思考的问题。

绿洲:大模型的下一个大变革在哪里?

袁教授:没有人能百分百预测准。一边大模型要继续发展,我们也同时要思考它的能力,如果真的很快见顶,那我们只能在其之上做应用和小创新。下一个大变革应该在哪儿?每个 AI 从业者和研究者都要思考这个问题。有人预测再过几年互联网上的语料就不够用来训练大模型了,语料不足是否会影响语言类大模型的发展?目前还没有真正的视觉大模型,所以我们还是有很高的期待,大模型还远远没走到头,我们需要思考是否有其他的路去发展。比如训练语言大模型都已经需要那么多算力,训练视觉大模型的算力可能是指数级增长,目前的算力是否能跟上?要把全世界所有的 GPU 集中在一起去训练一个大模型,显然不太可能。尤其是国情差异等大环境下,训练本身就是一个问题。当然视觉大模型,或者多模态大模型不会像我们期望得来得那么快,也许只是因为我们的想象太贫瘠。如果英伟达可以继续在算力上进行突破,可能这条路就更短一些。

图像描述和 VQA,尤其是 VQA,我觉得可能是多模态任务皇冠上的明珠。VQA 任务为什么这么重要?如果 VQA 任务做到极致,有这种模型,任何一张图片,一个视频送进去,VQA 能告诉我分割、检测、描述等等所有的信息,那就等于所有的视觉任务都解决了,那才是真正的多模态,才真正见底。那时候见底了都无所谓,因为已经到了天马行空的状态。当然前提还是算力和数据的结合,如果这两者都能突破想象,那这个模型也许不会太晚才到。

同时 AI 的研究者也要思考低功耗的问题。目前功耗那么大,要出现真正超级智能的多模态大模型,可能集中全球的算力都不够。那时候是否要走另一条路,比如是否在底层的模型上要做革命,找一个泛化性强同时功耗低,训练成本低的一个大模型。

绿洲:您理想中的多模态的终极状态是怎样的?

袁教授:强且低功耗,就像人类大脑,人类大脑只有 20 多瓦,泛化性强。当然人类虽然泛化性很强,但单个任务的性能肯定没有垂直领域的大模型强。

绿洲 :如何看待这波 GPT 出现的智能涌现?

袁教授:最简单的例子,当年计算器出现的时候,速度精度比人类快太多了,但是数学家并没有因此失业。计算器强不意味着不需要数学家了。大模型的智能涌现,具备了一定的智能行为,但是人类被机器超越早就不是新鲜事了,譬如AlphaGo,譬如深蓝。有些行业中的一部分工作可能会被替代,这是人类历史发展的主旋律,没有必要觉得恐惧。新行业出现,旧行业消亡,汽车代替马车,驾驶员代替车夫,未来真正的自动驾驶出现,驾驶员消失,肯定还会诞生其他行业。如果说没有工作了,人类会进入更高的状态,真正的 AI 革命生产力的时候,短期的阵痛并不会取代长期取得的变革成果。

GPT 系列在多任务上更像人类,我觉得这是它的训练方式造成的,为什么它会一本正经地胡说八道,因为训练方式就是让它正经,但不解决事实性,只是让人觉得,好像是人类和我在对话。这的确可能导致了一些恐怖谷的效应。

绿洲:您对生物大模型有什么看法?

袁教授:生物大模型走的路是低功耗,但是这条路任重道远,因为首先业界和学术界的关注太少,从业者太少,发展速度必然会减缓;第二对硬件的需求会更大,它并非基于冯诺依曼架构,我们需要高效的神经形态芯片进行训练,在 GPU 上训练的效率不高。生物大模型是需要软硬结合协同发展的领域。因为关注度不够,我希望能有更多的人去关注,并推动这个行业。AI 发展是个资源密集型行业,当企业认为发展路径过长,就不会投入资源,那只能靠学术界去推动,这也正是学术界存在的意义。学术界是保留火种的地方。当大家都在关注大模型做应用和创新的时候,学术界更要冷静地看待这件事,同时需要知道我们是否要保留火种。当这一代大模型走到头的时候,学术界回头来看,也许还能将更多的可能性向前推。学术界需要以更底层的创新导向,长期主义地向前发展

绿洲:神经形态芯片领域,国内外有啥值得关注的研究者吗?

袁教授:国内有北大黄铁军教授、田永鸿教授;清华的施路平教授;中科院自动化所李国齐教授;浙大潘云鹤院士等。海外有 UCSD 的 Gert Cauwenberghs 教授,耶鲁大学的 Priyadarshini (Priya) Panda 教授,哈佛大学的 Hongkun Park 教授等。

参赞生命力

你觉得什么是科技生命力? 

学术界是保留科技火种的地方。

—— 袁粒教授
北大信息工程院

绿洲资本是中国新一代风险投资机构,致力于发现中国未来十年最有生命力的企业家,并与他们共同成长,创造长期价值。 “参赞生命力”是绿洲的愿景和使命。这种生命力(Vitality),既是时代结构性变革的方向,亦是企业家坚韧和进化的力量。

绿洲资本专注于早期和成长期投资,单笔投资300万到3000万美金,重点投资机器人、人工智能、科技服务等领域,助力中国科技驱动的新服务升级。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存